【白皮书】企业级生成式AI:计算和存储基础设施解决方案
【ANDY】本文是关于Dell近期发布的Project Helix。可参考。
Source: Dell, White Paper Generative AI in the Enterprise, May 2023
介绍
摘要
AI应用程序和用例的增长令人震惊,几乎影响了商业和个人生活的方方面面。生成式AI是AI的一个分支,旨在生成人类未明确编程的新数据、图像、代码或其它类型的内容,正变得特别具有深远的影响和引领作用。
据一位分析师称,到 2022 年,全球生成式 AI 市场规模已经估计为 107.9 亿美元。预计到2032年将接近1180亿美元,从2023年到2032年的复合年增长率(CAGR)为27%。
除了无数其它应用程序外,用例还包括:
用于客户服务的对话代理和聊天机器人
音频和视频内容创建
软件编程
安全性、欺诈检测和威胁情报
自然语言交互和翻译
很少有商业和社会领域不受这项技术的影响。
虽然公共生成AI模型(如ChatGPT,Google Bard AI,DALL-E以及其它更专业的产品)很有趣,但人们对它们在企业中的使用存在合理的担忧。这些问题包括产出的所有权,其中包括准确性、真实性和来源归属问题。
因此,企业迫切需要开发自己的大型语言模型(LLM),这些模型在专有数据集上进行训练,或者从已知的预训练模型进行开发和微调。
Dell Technologies和NVIDIA
Dell Technologies和 NVIDIA 通过为 AI 和高性能计算提供联合创新,一直处于领先地位。我们正在这个新领域积极合作,使客户能够为企业创建和运营生成式AI模型。
Dell Technologies拥有业界领先的基础设施,其中包括功能强大的服务器 凭借 NVIDIA 图形处理单元 (GPU) 加速、数据存储系统、网络、系统管理、参考设计和多年帮助企业实施 AI 计划的经验。
NVIDIA 拥有领先的 GPU 加速、端到端网络解决方案、集群管理软件、NVIDIA AI 企业软件、最先进的、预训练的基础模型,包括 NeMo 框架,以及构建、定制和运行生成式 AI 的专业知识。
我们现在正在合作开展一个名为Project Helix的新生成式AI项目,该项目是Dell Technologies和NVIDIA之间的联合计划,旨在将生成式AI引入全球企业数据中心。Project Helix是一个全栈解决方案,使企业能够创建和运行自定义AI模型,这些模型是根据其业务知识构建的。我们设计了一个可扩展、模块化和高性能的基础设施,使世界各地的企业能够创建一波生成式AI解决方案,重塑他们的行业并赋予他们竞争优势。
生成式AI是当今AI中最令人兴奋和快速发展的领域之一。这是一项变革性技术,Dell Technologies强大的基础设施和软件与 NVIDIA 的加速器、AI 软件和 AI 专业知识相结合,是首屈一指的。
关于本文档
在本白皮书中,读者可以全面了解生成式 AI,包括其基本原则、优势、架构和技术。他们还可以了解各种类型的生成式 AI 模型,以及如何在实际应用中使用它们。
本白皮书还探讨了生成式AI的挑战和局限性,例如训练大规模模型的困难、潜在的偏见和道德问题,以及生成现实输出和维护数据隐私之间的权衡。
本白皮书还提供了有关如何有效开发和部署生成式 AI 模型的指导。它包括有关Dell Technologies和 NVIDIA 的硬件和软件基础设施、数据管理和评估指标的考虑因素,所有这些都为企业中的生成式 AI 提供了可扩展的高性能生产架构。
生成式 AI 背景和概念
背景
自20世纪中叶诞生以来,AI经历了几个发展阶段。AI开发的主要阶段以及大致的时间框架是:
基于规则的系统(1950-1960 年代):AI开发的第一阶段得到解决创建基于规则的系统,其中专家将他们的知识编码为一组规则,供计算机遵循。这些系统从新数据中学习或适应新情况的能力有限。
机器学习(1960 年代至 1990 年代):AI发展的下一阶段涉及使用机器学习算法来训练计算机识别数据中的模式并根据这些模式做出预测或决策。这一阶段见证了决策树、逻辑回归和神经网络等算法的发展。
深度学习(2010年代至今):AI的下一阶段涉及深度学习。深度学习是机器学习的一个子集,它使用多层神经网络来识别数据中的复杂模式。此阶段在处理图像、视频和自然语言数据方面非常有效。
生成式 AI(当前):当前阶段解决生成式 AI。生成式 AI 使用深度学习算法来生成与原始数据模式非常相似的内容,例如图像、视频、音乐甚至文本。此阶段具有创建新类型内容以及基于大量数据生成新见解和预测的巨大潜力。
虽然这些阶段没有严格定义或相互排斥,但它们代表了AI发展的重要里程碑,并展示了AI算法和应用随着时间的推移越来越复杂和复杂。
定义和概述
生成式 AI 是AI的一个分支,它构建的模型可以生成未经人类明确编程的内容(例如图像、文本或音频),并且在风格和结构上与现有示例相似。生成式 AI 技术使用深度学习算法从大型示例数据集中学习、学习模式并生成与原始数据相似的新内容。
生成式AI的一个重要方面是它能够创建与人类创建的内容无法区分的内容,后者在娱乐、设计和营销等行业中有许多应用。例如,生成式AI可以创建尚不存在的产品的逼真图像,生成模仿特定艺术家风格的音乐,甚至生成与人类编写的内容无法区分的文本。
生成式 AI 的一个重要领域是自然语言生成 (NLG),它是自然语言处理 (NLP) 的一个子集,涉及生成与现有或人工生成的文本连贯、流畅且风格相似的自然语言文本。NLG 已用于各种应用,包括聊天机器人、语言翻译和内容生成。
总体而言,生成式AI有可能改变我们创建和消费内容的方式。它有可能在各个领域产生新的知识和见解,使其成为AI的一个令人兴奋的发展领域。
演进
深度学习算法的进步和自然语言文本大型数据集的可用性推动了NLG向生成式AI的演变。早期的NLG系统依赖于基于规则或基于模板的方法,这些方法在生成多样化和创造性内容的能力方面受到限制。然而,随着递归神经网络(RNN)和Transformer等深度学习技术的兴起,已经有可能构建可以从自然语言文本的大型数据集中学习并生成更加多样化和创造性的新文本的模型。
生成式 AI 发展的一个重要里程碑是 OpenAI 开发的生成式预训练Transformer (GPT) 系列模型。最初的 GPT 模型于 2018 年发布,是一个基于Transformer的模型,在大量文本数据语料库上进行训练。该模型能够生成与原始数据风格相似的连贯流畅的文本。该模型的后续版本,包括 GPT-2 和 GPT-3,已经突破了 NLG 可能的界限,生成的文本越来越多样化、创造性,在某些情况下甚至像人类。
如今,生成式 AI 技术用于广泛的应用,包括内容生成、聊天机器人、语言翻译等。随着该领域的不断发展,我们可以期待看到更复杂的生成AI模型,这些模型可以生成更具创造性和多样化的内容。
Transformer模型
Transformer模型是一种深度学习模型,通常用于 NLP 和其它生成 AI 应用。Transformer是在2017年由Vaswani和其它人在一篇开创性的论文中介绍的。此后,它们已成为许多最先进的NLP模型的关键构建块。
在高层次上,Transformer模型旨在学习句子或文本序列中单词之间的上下文关系。他们通过使用一种称为自我注意的机制来实现这种学习,该机制允许模型根据上下文权衡序列中不同单词的重要性。这种方法与传统的递归神经网络(RNN)模型相反,后者按顺序处理输入序列,并且没有序列的全局视图。
Transformer模型的一个关键优势是它们能够并行处理输入序列,这使得它们在许多NLP任务中比RNN更快。它们也被证明对一系列NLP任务非常有效,包括语言建模,文本分类,问答和机器翻译。
Transformer模型的成功导致了大规模预训练语言模型的发展,称为生成预训练Transformer (GPT),例如 OpenAI的GPT系列和Google的双向编码器表示来自Transformer (BERT) 模型。这些预训练模型可以针对特定的NLP任务进行微调,而额外的训练数据相对较少,这使得它们对于广泛的NLP应用程序非常有效。
总体而言,Transformer模型已经彻底改变了NLP领域,并已成为许多最先进的生成AI模型的关键构建块。他们学习文本序列中单词之间上下文关系的能力为语言生成、文本理解和其它 NLP 任务提供了新的可能性。
工作负载特征
生成式 AI 工作负载大致可分为两种类型:训练和推理。训练使用大型示例数据集来训练生成 AI 模型,而推理使用经过训练的模型根据输入生成新内容。训练前的数据准备也可能是创建自定义模型的一项重要任务。所有这些工作负载都具有在设计解决方案及其基础结构时必须考虑的特征。
生成式 AI 工作负载的特征可能因特定应用程序和所使用的模型类型而异。但是,一些共同特征包括:
计算强度:生成式 AI 工作负载可能是计算密集型的,需要大量的处理能力来训练或生成新内容。此方案特别适用于 GPT-3 等大型模型,这些模型可能需要 GPU 等专用硬件才能高效训练。
内存要求:生成式 AI 模型需要大量内存来存储模型参数和中间表示。此方案特别适用于基于Transformer的模型,例如 GPT-3,这些模型具有许多层,可能需要数亿甚至数十亿个参数。因此,拥有足够的 GPU 内存容量是关键。
数据依赖关系:生成式 AI 模型高度依赖于训练数据的质量和数量,这会极大地影响模型的性能。数据准备和清理是解决方案的重要组成部分,因为利用大型高质量数据集是创建自定义模型的关键。
延迟要求:推理工作负载可能具有严格的延迟要求,尤其是在聊天机器人或语音助手等实时应用程序中。模型必须针对推理速度进行优化,这可能涉及模型量化或修剪等技术。延迟注意事项还倾向于本地或混合解决方案,而不是纯粹基于云的解决方案,以便从最接近数据源的模型进行训练和推断。
模型准确性:生成内容的准确性和质量是许多生成式 AI 应用程序的关键结果,通常使用困惑度、双语评估替补 (BLEU) 分数或人工评估等指标进行评估。
总体而言,生成式 AI 工作负载可能非常复杂且具有挑战性,需要专门的硬件、软件和专业知识才能实现最佳结果。然而,通过正确的工具和技术,它们可以在NLP、计算机视觉和创意艺术等领域实现广泛的令人兴奋和创新的应用。
工作负载的类型
有几种特定类型的生成式 AI 工作负载;每个都有不同的要求。本白皮书后面介绍的系统配置反映了这些要求。
推理
推理是使用生成 AI 模型根据输入生成新的预测内容的过程。预训练模型在大型数据集上进行训练,当新数据输入模型时,它会根据训练期间学到的内容进行预测。此训练涉及将输入序列或图像馈送到模型中,并接收输出序列或图像作为结果。推理通常比训练更快且计算密集度更低,因为它不涉及更新模型参数。
模型定制
预训练模型自定义是为特定于任务或特定于域的用例重新训练现有生成 AI 模型的过程。对于大型模型,自定义比在新数据集上训练模型更有效。目前使用的定制技术包括微调、指令调整、提示学习(包括prompt tuning和P-tuning)、带有人类反馈的强化学习、迁移学习和使用适配器(或适应性Transformer)。最有用的自定义类型是微调、提示学习和迁移学习。
微调
微调在特定任务或数据集上重新训练预训练模型,调整其参数以提高性能并使其更加专业化。这种传统的自定义方法要么冻结除一个层之外的所有层并调整新数据集上的权重和偏差,要么将另一层添加到神经网络并重新计算新数据集上的权重和偏差。
提示学习 prompt tuning
提示学习是一种策略,它允许将预训练的语言模型重新用于不同的任务,而无需添加新参数或使用标记数据进行微调。这些技术也可用于大型生成 AI 图像模型。
提示趋向可以进一步分为两种更广泛的技术:prompt tuning和P-tuning。
提示调优是为特定于任务或特定于域的用例重新训练预训练的生成 AI 模型的过程。它使用定制的数据集来提高其在特定领域、用例或任务上的性能,或将其它知识合并到模型中。此过程允许模型适应新数据集的特定特征,并可以提高其在任务中的准确性和性能。
P-tuning或参数优化侧重于在推理过程中调整提示或指令,以塑造模型的输出,而无需修改其基础权重。这两种技术在为特定用例定制和优化大型语言模型方面都发挥着作用。
迁移学习
迁移学习是一种传统技术,用于使用预训练的生成 AI 模型来加速对新数据集的训练。该技术从已经从大型数据集中学习有用特征的预训练模型开始,然后将其适应具有较少训练数据的新数据集。它比最初在新数据集上训练模型更快、更有效,因为预训练的模型已经了解数据的基本特征。当可用于新任务或领域的训练数据有限时,迁移学习非常有用。迁移学习通常不用于生成式 AI LLM,但对通用 AI 模型有效。
在此解决方案设计中,与自定义相关的配置针对prompt tuning和 P-tuning进行了优化。但是,可伸缩性和整体体系结构设计注意事项仍然适用于其它自定义技术和文本以外的数据集。
训练
训练是最初使用数据集训练生成 AI 模型的过程。训练从数据集中馈送模型示例,并调整模型参数以提高其在任务上的性能。训练可能是一个计算密集型过程,特别是对于像 GPT-3 这样的大规模模型。
在生成式 AI 的端到端工作流中,这些步骤的确切顺序取决于特定的应用程序和要求。例如,LLM 的常见工作流可能涉及:
预处理和清理训练数据
在数据上训练生成 AI 模型
评估训练模型的性能
在特定任务或数据集上微调模型
评估微调模型的性能
在生产环境中部署用于推理的模型
迁移学习还可以在此工作流的各个点使用,以加速训练过程或提高模型的性能。总体而言,关键是为工作流程的每个步骤选择适当的技术和工具,并根据应用程序的特定要求和约束优化流程。
输出的类型
使用的数据类型和生成 AI 结果因所分析的数据类型而异。虽然该项目的重点是LLM,但其它类型的生成AI模型可以产生其它类型的输出。
文本:LLM 可用于根据特定提示生成新文本,或将长段文本编译为较短的摘要。例如,ChatGPT 可以从一些关键细节生成新闻文章或产品描述。
影像:影像的生成 AI 模型可用于创建不存在的人物、物体或环境的真实影像。例如,StyleGAN2可以生成不存在的人的逼真肖像。
音频:音频的生成 AI 模型可用于基于现有音频样本生成新声音或音乐,或创建逼真的语音模拟。例如,Tacotron 2可以生成听起来像特定人的语音,即使那个人。从来没有说过这些话。
视频:视频的生成式 AI 模型可用于基于现有素材创建视频,或生成人物或物体的逼真动画。例如,DALL-E 可以生成不存在的对象的图像,这些图像可以组合在一起以创建动画视频。
在每种情况下,都必须在适当数据类型的大型数据集上训练生成 AI 模型。训练过程是根据数据类型和特定数据类型的要求量身定制的,因为每种类型的数据都需要不同的输入和输出格式。最近的进展现在能够集成不同的数据类型,例如,使用文本输入生成图像。
业务和技术挑战
在使用生成式AI模型时,需要考虑业务和技术挑战,特别是那些尚未从企业内部开发和控制的公共领域的模型。
以下示例显示了企业在实施生成式 AI 模型时可能面临的挑战,以及应对这些挑战的潜在解决方案。重要的是逐案处理每个挑战,并与该领域的专家合作开发最佳解决方案。
内容的所有权
在使用某些生成式 AI 模型时,企业对产出和知识产权的所有权存在合理的担忧。这些问题包括准确性、真实性和来源归属问题。用于训练公共模型的数据虽然广泛,但可能基于不完整或过时的知识,或者导致无法验证事实或访问实时信息。
数据质量
任何机器学习模型面临的最大挑战之一是确保训练数据是高质量的。这种需求对于生成式 AI 模型尤其重要,因为生成 AI 模型可能需要大量训练数据才能生成准确的结果。为了应对这一挑战,企业必须确保他们的数据是干净的,标签清晰,并代表他们试图解决的问题。
模型复杂性
生成式 AI 模型可能很复杂,需要大量计算资源来训练和运行。对于无法访问强大硬件或正在使用大型数据集的企业来说,此要求可能是一个挑战。
道德考虑
生成式AI模型可能具有道德影响,特别是如果它们用于创建影响人们生活的内容或做出决策。为了应对这一挑战,企业必须仔细考虑其生成式AI模型的潜在道德影响,并努力确保它们不会造成伤害。
可持续性
大规模生成式 AI 模型需要大量的计算资源和能力才能运行。此类模型的训练和推理过程可能会消耗大量能源,导致碳排放、冷却需求和环境影响增加。
法规遵从性
根据行业和应用程序的不同,企业在实施生成式 AI 模型时可能必须满足法规要求。例如,在医疗保健领域,可能有针对患者隐私和数据安全的法规。为了应对这一挑战,企业必须与法律和合规团队密切合作,以确保其生成式AI模型满足所有监管要求。
获益
生成式AI的好处
生成式AI可以为组织在多个方面带来众多好处。这些好处包括:
提高工作效率:自动执行重复且耗时的任务,使员工能够专注于更高级的任务并提高整体工作效率
增强客户体验:开发对话界面和聊天机器人,通过提供个性化和及时的响应来提高客户参与度和满意度
更好的决策:从数据中生成见解和建议,帮助为业务决策提供信息并提高整体业务绩效
节省成本:通过自动化任务和提高流程效率来帮助降低运营成本,最终节省成本
增加创新:产生有助于推动创新和创造新收入来源的新想法和解决方案
竞争优势:通过实现更快、更高效的流程、更好的客户参与度和改进的决策,帮助企业在竞争中保持领先地位
Dell和NVIDIA的优势
Dell Technologies和NVIDIA提供的优势是显着的,因为两者的优势结合在一起。我们:
提供基于最佳Dell基础设施构建的全栈生成式AI解决方案 软件,配备最新的 NVIDIA 加速器、NVIDIA AI 软件和 AI 专业知识
提供经过验证的设计,减少设计和指定 AI 解决方案的时间和精力,加快实现价值
提供规模调整和扩展指导,以便您的基础设施可以有效地根据您的需求量身定制,但也可以随着这些需求的扩展而增长
使企业能够在本地构建、定制和运行专门构建的生成式 AI,以解决特定的业务挑战,并使用相同的加速计算平台创建领先的模型
协助企业完成从基础设施发放、大型模型训练、预训练模型微调、多站点模型部署、大型模型推理等整个生成式 AI 生命周期
启用自定义生成 AI 模型,这些模型专注于所需的操作域,拥有最新的业务知识,具备必要的技能,并且可以在生产中不断改进
包括最先进的预训练基础模型,以快速加速创建自定义生成 AI 模型
确保敏感和专有公司数据的安全性和隐私性,并遵守政府法规
功能强大且性能优化的服务器和存储硬件设计,加上 GPU 加速,以及包括高级电源管理、热优化和整体能源利用率监控的系统管理软件
包括使用已知模型和数据集开发更安全、更值得信赖的 AI 的能力——这是当今企业的基本要求
使用案例
生成式 AI 模型有可能解决广泛的用例,并解决不同行业的众多业务挑战。生成式 AI 模型可用于:
顾客服务:为了改进聊天机器人的意图识别,总结对话,回答客户问题,并将客户引导到适当的资源。
内容创建:创建产品描述、社交媒体帖子、新闻文章甚至书籍等内容。此功能可以通过自动化内容创建过程来帮助企业节省时间和金钱。
销售和营销:为客户创建个性化体验,例如定制产品推荐或个性化营销信息。
产品设计:设计新产品或改进现有产品。例如,可以在现有产品的图像上训练生成AI模型,以生成满足特定标准的新设计。
教育:创造类似于导师的个人学习体验,并生成学习计划和定制学习材料。
欺诈检测:检测和防止金融交易或其它情况下的欺诈行为。例如,可以训练生成 AI 模型来识别欺诈行为模式并标记可疑交易。
医疗:分析医学图像或患者数据,以帮助诊断或治疗。例如,可以训练生成AI模型来分析医学图像以识别癌细胞或分析蛋白质结构以进行新药发现。
游戏:创造更逼真、更引人入胜的游戏体验。例如,可以训练生成 AI 模型来创建更逼真的动画或生成新的游戏关卡。
软件开发:要用人类语言编写代码,将代码从一种编程语言转换为另一种编程语言,更正错误代码或解释代码。
这些示例显示了生成式 AI 模型可以帮助解决的许多业务挑战。关键是确定特定业务或行业最紧迫的特定挑战,然后确定如何使用生成式AI模型来应对这些挑战。
Dell和NVIDIA解决方案架构
高阶体系结构
多年来,Dell Technologies和 NVIDIA 在为 AI 和高性能计算提供联合创新方面一直处于领先地位。通过这个项目,我们共同设计了一个以工作流程为中心的全栈解决方案,使企业能够创建和运行任何规模的生成式AI模型——从AI实验到 AI生产。
该架构是模块化的、可扩展的,并在性能与效率之间取得平衡。模块化使架构能够支持许多不同的 AI 工作流,如以下部分所述。
模块化精神
这种联合架构的基石是模块化,提供灵活的设计,可满足多种用例、扇区和计算要求。真正的模块化 AI 基础设施旨在适应性强且面向未来,其组件可以根据特定的项目要求进行混合和匹配。Dell-NVIDIA解决方案使用这种方法,使企业在构建基础设施时能够专注于生成式AI工作负载的某些方面。这种模块化方法是通过特定的用例设计来实现的,用于训练、模型调优和推理,从而有效利用每种计算类型。每个设计都从每个用例的最小单位开始,并具有扩展选项。
模块化软件堆栈对于允许 AI 研究人员、数据科学家、数据工程师和其它用户快速设计其基础设施并快速实现价值也至关重要。Dell-NVIDIA解决方案使用最好的 NVIDIA AI 软件,以及合作伙伴解决方案来构建一个适应性强且在每一层都受支持的 AI 平台 — 从操作系统到调度程序,再到多个 AI 操作 (AIOps) 和机器学习操作 (MLOps) 解决方案。
下图显示了解决方案体系结构的高级视图,重点是软件堆栈,从基础结构层一直到 AI 应用程序软件:
从较高的层面来看,解决方案架构始于Dell Technologies和NVIDIA提供的基本硬件组件,这些组件以特定的人工智能工作负载为重点进行组合,如训练、微调和推理。本白皮书将在后面的章节中描述各个硬件组件的细节。
每个控制平面或计算元素都支持红帽企业 Linux 或 Ubuntu 作为操作系统,该操作系统预装了 NVIDIA GPU 驱动程序和计算统一设备架构 (CUDA) 以供裸机使用。
NVIDIA 基本命令管理器 (BCM) 通过在集群中的主机系统上安装软件、部署 Kubernetes 和监控集群状态来充当集群管理器。主机置备是运行良好的群集的核心,能够在每个主机系统上加载操作系统、驱动程序、固件和其它关键软件。Kubernetes 部署包括 GPU 运营商和网络运营商安装,这是 GPU 和网络结构支持的关键部分。NVIDIA BCM 支持有状态和无状态主机管理,跟踪每个系统及其运行状况,并收集管理员可以实时查看或汇总到报告中的指标。
该解决方案的顶层是 NVIDIA AI 企业版软件,该软件可加速数据科学管道并简化生产 AI 的开发和部署,包括生成 AI、计算机视觉、语音 AI 等。无论是最初开发新的 AI 模型,还是使用其中一个参考 AI 工作流作为模板来开始使用,
在解决方案中部署 Kubernetes 后,可以安装几种不同的 MLOps 解决方案,无论是 Kubeflow 和 MLFlow 等开源解决方案,还是 cnvrg.io、Domino、H2O.ai、Run:ai 等受支持的解决方案。这些解决方案中的每一个都可以部署为在多集群和混合云方案中工作。
架构模块
生成式 AI 解决方案体系结构解决了三个主要工作流:
大型模型推理
大型模型定制(fine-tuning和 P-tuning)
大型模型训练
其中每个工作流都有不同的计算、存储、网络和软件要求。解决方案设计是模块化的,每个组件都可以根据客户的工作流程和应用要求独立扩展。此外,某些模块是可选的,或可与组织的 AI 基础结构中的等效现有解决方案交换,例如其首选 MLOps 和数据准备模块或其首选数据模块。下表显示了解决方案体系结构中的功能模块:
用于生成式 AI 解决方案的功能架构模块
模块 | 描述 |
训练 | 用于 AI 优化的服务器模块,用于训练,由采用 NVIDIA H100 GPU 的 PowerEdge XE9680 和 XE8640 服务器 |
推理 | 用于AI优化的推理服务器的模块,由PowerEdge XE9680服务器提供支持,配备NVIDIA H100或R760xa服务器和NVIDIA L40或L4 GPU |
管理 | 用于系统和集群管理的模块,包括由PowerEdge R660服务器提供支持的NVIDIA BCM头节点。 |
MLOps 和数据准备 | 用于机器学习操作和数据准备的模块,用于运行MLOps软件、数据库和其它基于CPU的数据准备任务,由PowerEdge R660服务器提供支持 |
数据 | 用于由Dell PowerScale提供支持的高吞吐量横向扩展NAS模块,以及由Dell ECS和ObjectScale提供支持的高吞吐量横向扩展对象存储 |
InfiniBand | 用于极低延迟、高带宽 GPU 到 GPU 通信的模块,由 NVIDIA QM9700 InfiniBand 交换机提供支持 |
以太网 | 由Dell PowerSwitch Z9432F-ON提供支持的模块,用于解决方案中其他模块之间的高吞吐量和高带宽通信 |
可扩展性
在解决方案架构中,功能模块可以根据用例和容量要求进行扩展。例如,大型模型训练的最小训练模块单元由八台PowerEdge XE9680服务器和64个NVIDIA H100 GPU组成。
作为理论示例,带有InfiniBand模块的训练模块可以在112天内训练175B参数模型。为了说明可扩展性,这些模块的六个副本可以在 19 天内训练相同的模型。再举一个例子,如果你正在训练一个 40B 参数模型,那么训练模块的两个副本足以在 14 天内训练该模型。
InfiniBand模块也有类似的可扩展性概念。例如,一个带有两个QM9700交换机的模块可以支持多达24台PowerEdge XE9680服务器。如果将 InfiniBand 模块加倍,在胖树架构中,您可以扩展到 48
PowerEdge XE9680服务器。以太网模块和推理模块的工作方式类似。
数据模块由横向扩展存储架构存储解决方案提供支持,随着训练和推理模块中服务器和 GPU 数量的增加,这些解决方案可以线性扩展以满足性能和容量要求。
可扩展性和模块化是Dell和NVIDIA全面生成式AI设计的固有特性。
安全
Dell的安全方法本质上是固有的 — 它是内置的,以后不会附加,并且它已集成到Dell安全开发生命周期的每一步中。我们努力不断发展我们的PowerEdge安全控制、功能和解决方案,以满足不断增长的威胁形势,并继续通过硅信任根来巩固安全性。
PowerEdge网络弹性平台内置了安全功能,由集成的Dell远程访问控制器(iDRAC)提供支持。系统中添加了许多功能,从访问控制到数据加密再到供应链保证。这些功能包括实时 BIOS 扫描、UEFI 安全启动自定义、RSA 安全 ID MFA、安全企业密钥管理 (SEKM)、安全组件
验证 (SCV)、增强的系统擦除、自动证书注册和续订、密码选择和 CNSA 支持。所有功能都广泛使用智能和自动化,以帮助您领先于威胁,并支持不断扩展的使用模型所需的扩展。
随着企业转向生产 AI,维护安全稳定的 AI 平台可能具有挑战性。对于使用开源、不受支持的 AI 库和框架构建自己的 AI 平台的企业来说,这一挑战尤其如此。为了解决这个问题并最大限度地减少维护 AI 平台的负担,NVIDIA AI 企业版软件订阅包括持续监控安全漏洞、持续修复和安全补丁以及关键漏洞的优先级通知。这种监控使企业开发人员能够专注于构建创新的 AI 应用程序,而不是维护其 AI 开发平台。此外,由于存在许多开源依赖项,维护 API 稳定性可能具有挑战性。借助 NVIDIA AI Enterprise,企业可以通过使用 NVIDIA AI 专家维护的生产分支来依靠 API 稳定性。获得 NVIDIA 支持专家意味着 AI 项目将步入正轨。
AI 基础设施组件注意事项
关于生成式 AI 系统的各种硬件基础设施组件,有许多重要的考虑因素,包括高性能计算、高速网络以及可扩展、高容量和低延迟的存储等等。
计算
生成式 AI 模型需要大量的计算能力,尤其是在训练阶段,因为它们通常涉及大规模矩阵乘法和其它计算密集型操作。对于训练,通常使用许多强大的 GPU 来加速该过程。对于推理,可以使用功能较弱的硬件,但需要大量的计算能力来提供快速响应。
加速器
如前所述,GPU 等加速器通常用于加快训练过程。这些加速器专为并行处理大量数据而设计,非常适合生成式 AI 模型所需的矩阵乘法和其它运算。除了专门的硬件外,还有基于软件的加速技术,例如混合精度训练,可以通过降低某些计算的精度来加快训练过程。
存储
生成式 AI 模型可能很大,具有许多参数和中间输出。这意味着模型需要大量存储空间来保存所有数据。通常使用分布式存储系统(如Hadoop或Spark)来存储训练期间的训练数据和中间输出。对于推理,可以将模型存储在本地磁盘上,但对于较大的模型,可能需要使用NAS或基于云的存储解决方案。用于文件对象和文件存储的可扩展、高容量和低延迟存储组件在 AI 系统中至关重要。
网络
网络是生成式 AI 的重要考虑因素,尤其是在分布式训练场景中。在训练期间,数据通常分布在多个节点上,每个节点都有自己的加速器和存储。这些节点必须经常相互通信才能交换数据和更新模型。高速网络解决方案(如InfiniBand或RDMA)通常用于最小化这些通信的延迟,并显着提高训练过程的性能。
总结
生成式 AI 需要大量的计算能力和存储,并且通常涉及使用 GPU 等专用加速器。此外,高速网络解决方案对于最大限度地减少分布式训练期间的延迟非常重要。通过仔细考虑这些要求,企业可以构建和部署快速、高效和准确的生成式 AI 模型。
Dell基础设施和软件组件
本节介绍生成式AI解决方案体系结构中使用的主要Dell硬件和软件组件。
Dell PowerEdge 服务器
Dell Technologies提供一系列加速优化的服务器和广泛的采用 NVIDIA GPU 的加速产品组合。生成式AI解决方案中提供了两台Dell服务器。
PowerEdge自适应计算方法使服务器能够优化最新的技术进步,从而实现可预测的盈利成果。PowerEdge产品组合中的改进包括:
专注于加速:支持最完整的 GPU 产品组合,为 AI、机器学习和深度学习训练和推理、高性能计算 (HPC) 建模和模拟、高级分析以及丰富的协作应用程序套件和工作负载提供最高性能
周到的散热设计:新的散热解决方案和设计,可解决密集发热组件的问题,在某些情况下,采用从前到后的风冷设计
Dell多矢量冷却:针对服务器内气流路径的简化、高级散热设计
PowerEdge XE9680服务器
PowerEdge XE9680服务器是一款高性能应用服务器,专为要求苛刻的AI、机器学习和深度学习工作负载而设计,使您能够快速开发、训练和部署大型机器学习模型。
PowerEdge XE9680服务器是业界首款配备八台NVIDIA的服务器。
H100 GPU 和 NVIDIA AI 軟體。它旨在最大限度地提高AI吞吐量,为企业提供一个高度精细、系统化和可扩展的平台,帮助他们在 NLP、推荐系统、数据分析等方面实现突破。
其 6U 风冷设计机箱支持高达 35C 环境温度的最高瓦数下一代技术。它与 NVIDIA ConnectX-7 智能网络接口卡 (SmartNIC) 相比,性能提高了九倍,网络速度提高了两倍,并且为 NVIDIA SuperPOD 提供了高速可扩展性。
PowerEdge XE8640服务器
PowerEdge XE8640服务器是一款4U空冷性能优化服务器,配备四个NVIDIA H100 Tensor Core GPU和NVIDIA NVLink技术,以及两个即将推出的第四代英特尔Xeon可扩展处理器。它旨在帮助企业开发、训练和部署机器学习模型,加快和自动化分析过程。
PowerEdge R760xa服务器
双插槽2U PowerEdge R760xa服务器针对PCIe GPU进行了优化,使企业能够在风冷设计中加速各种应用,包括AI训练和推理、分析、虚拟化和性能渲染应用。PowerEdge R760xa服务器使用Intel CPU提供出色的性能,并支持AMD,Intel和NVIDIA的各种GPU加速器,以满足大量强大的苛刻处理需求。使用最新技术,通过强大的特性和功能,在整个企业范围内部署和启用要求苛刻的图形应用程序和密集的 AI 推理应用程序。
Dell文件存储
Dell PowerScale通过全闪存NVMe文件存储解决方案支持要求最苛刻的AI工作负载,这些解决方案以紧凑的外形提供巨大的性能和效率。
生成式 AI 解决方案体系结构中使用了多个模型,所有模型均由 PowerScale OneFS 操作系统提供支持,并支持内联数据压缩和重复数据删除。每个群集的最小 PowerScale 节点数为 3 个节点,最大群集大小为 252 个节点。
PowerScale F900
PowerScale F900以成本效益的配置提供了所有NVMe驱动器的最大性能,以满足对存储需求苛刻的AI工作负载。每个节点的高度为2U,可容纳24个NVMe固态硬盘。PowerScale F900支持TLC或QLC驱动器以获得最佳性能。它使您能够将每个节点的原始存储容量从46 TB扩展到736 TB,并且每个集群的原始容量可达到186 PB。
PowerScale F600
PowerScale F600采用NVMe驱动器,在成本效益的紧凑1U机箱中提供更大容量和强大性能,以支持苛刻的工作负载。PowerScale F600支持TLC或QLC驱动器以获得最佳性能。每个节点允许您将原始存储容量从15.36 TB扩展到245 TB,并且每个集群的原始容量可达到60 PB。
Dell对象存储
Dell EMC 提供多种基于对象的存储产品,所有这些产品都具有可扩展性且经济高效,适用于 AI 工作负载的大量非结构化数据。
Dell ECS
ECS 企业对象存储将 S3 的简单性与针对现代工作负载(如 AI、机器学习和实时分析应用程序)的大规模极端性能相结合。ECS EXF900 提供全闪存、NVMe 性能,每个机架的容量可扩展至 5.898 PB,性能比上一代产品快 21 倍*。使用 ECS 为吞吐量优化的存储提供 GPU 服务器,可以快速将训练算法和应用程序暴露给比以往更多的数据。
*基于 2020 年 11 月,Dell Technologies内部分析将 10 KB 写入时 ECS EXF900 的最大带宽 (511 MB/s) 与 ECS EX300 的最大带宽 (24 MB/s) 进行比较。实际性能会有所不同。
Dell ObjectScale
ObjectScale 是软件定义的对象存储,可提供大规模性能以支持 AI 工作负载。它以高传输速率将数据集交付给要求最苛刻的 CPU 和 GPU 服务器,在不引入 HPC 存储复杂性的情况下,将 AI 训练算法暴露给更多数据。此存储包括对最大 30 TB 对象的快速稳定支持。集群可以轻松横向扩展,以线性方式增强性能和容量。由于能够在基于 NVMe 的全闪存驱动器上进行部署,存储性能不再是瓶颈。此外,对象标记为推理模型提供了更丰富的数据集,从中可以做出更智能的预测。
Dell PowerSwitch 网络
未来就绪的网络技术帮助您提高网络性能,降低总体成本和网络管理复杂性,并提供灵活性以采用新的创新技术。
Dell PowerSwitch Z9432F-ON是一款100/400GbE固定交换机,由Dell最新的分离式硬件和软件数据中心网络解决方案组成,提供先进的高密度100/400 GbE端口和广泛的功能,以满足当今数据中心环境的不断增长的需求。这款创新的、下一代的开放式网络高密度聚合交换机为Web 2.0、企业、中小市场和云服务提供商提供了最佳的灵活性和成本效益,适用于对计算和存储流量要求较高的环境。
系统配置
基于前面描述并由Dell和 NVIDIA 组件提供支持的生成式 AI 模块化、可扩展架构,该设计系列中最初有三种系统配置,每种配置都专注于特定的用例。三种优化的系统配置专为推理、定制和训练用例而设计。
以下各节简要介绍了每个重点领域的系统配置。请注意,每种情况的控制平面、数据存储和以太网网络是相似的。因此,如果您正在构建解决两种或更多情况的 AI 基础设施,则可以共享这些核心资源。
大型模型推理
许多企业选择从预训练模型开始,无需修改即可使用它,或者进行一些快速的工程或P-tuning,以更好地将模型用于特定功能。从生产部署开始至关重要 在LLM的情况下,因为对计算能力的需求很大。根据模型的大小,许多较大的模型需要多个 8x GPU 系统来实现第二级或亚秒级吞吐量。根据模型大小和实例数量,推理预训练模型的最低配置从一台PowerEdge R760XA服务器(最多四个NVIDIA H100 GPU)或一台PowerEdge XE9680服务器(配备八个NVIDIA H100 GPU)开始。然后,可以根据性能或容量的需要横向扩展节点数,但出于可靠性目的,建议使用两个节点。
推理大型模型的设计注意事项包括:
大型模型往往具有较大的内存占用量。虽然可能没有定义大型模型的明确边界,但为了简单起见,任何高于 10B 的参数都可以被视为大型模型。
当模型在 GPU 之间拆分时,GPU 之间的通信在提供最佳性能方面起着至关重要的作用。因此,可以采用使用快速Transformer技术的多GPU部署的NVIDIA Triton推理服务器软件。
对于40B参数以上的大型机型,我们建议使用PowerEdge XE9680服务器。对于小于40B参数的型号尺寸,PowerEdge R760xa服务器可提供出色的性能。
PowerSwitch Z9432F 支持 32 个 400 端口(QSFP56-DD 光纤收发器)或多达 128 个 100 GbE 端口。推理没有无限带模块或高吞吐量要求;因此,它可以线性扩展以满足最多 32 个节点的并发需求。
吞吐量(每秒推理次数)要求需要根据工作负载需求部署多个 GPU。
大型模型定制
许多企业放弃了初始训练,选择使用和定制预训练模型作为其解决方案的基础。使用fine-tuning和 P-tuning,可以应用特定于企业的数据来重新训练现有模型的一部分或为其构建更好的提示接口。与最初训练模型相比,此方法所需的计算能力要少得多,并且能够从与仅推理配置类似的配置开始。主要区别在于计算系统之间增加了InfiniBand网络。
使用预训练的大型模型进行fine-tuning和 P-tuning的大型模型自定义的设计注意事项包括:
尽管此任务的计算密集度相对低于大型模型训练,但不同节点的 GPU 之间需要大量的信息交换(例如权重)。因此,InfiniBand 需要通过八路 GPU 和全能 NVLInk 连接来优化性能和吞吐量。在某些情况下,当模型大小小于 40 B 参数并根据应用程序延迟要求时,InfiniBand 模块可以是可选的。
P-tuning在使用LLM之前使用一个小的可训练模型。小型模型用于对文本提示进行编码并生成特定于任务的虚拟令牌。提示调优和前缀调优(仅使用冻结语言模型调整连续提示)可显著减少训练时每个任务的存储和内存使用量。
对于小于40B参数的型号,您可以使用PowerEdge XE8640服务器。对于较大的型号,我们建议使用PowerEdgeXE9680服务器。
数据模块是可选的,因为没有快照要求。某些提示工程技术可能需要大型数据集,并且需要高性能数据模块。
大型模型训练
大型模型训练是三个用例中计算要求最高的工作负载,最大的模型需要大量 GPU 的数据中心在几个月内训练模型。训练的最低配置需要八台PowerEdge XE9680服务器,每台服务器有八个NVIDIA H100 GPU。最大的模型训练需要扩展到 16 倍、32 倍甚至更大配置的更大集群大小。
大型模型训练的设计注意事项包括:
大型生成 AI 模型对训练有很高的计算要求。根据OpenAI的说法,对于具有175B参数的聊天GPT-3,模型大小约为350 GB,在单个NVIDIA Tesla V100 GPU上训练GPT-3需要355年。或者,使用 1,024 个 NVIDIA A100 GPU 进行训练需要 34 天。
训练模型具有相当大的内存占用,不适合单个 GPU;因此,您必须将模型拆分到多个 GPU (N-GPU)。
模型大小、性能并行技术和工作数据集大小的组合要求
GPU,因此受益于PowerEdge XE9680服务器,其中八个NVIDIA GPU通过NVIDIA NVLink和NVIDIA NVSwitch完全连接。
在训练阶段,不同节点的 GPU 之间也存在大量的信息交换(例如权重);InfiniBand 是优化性能和吞吐量所必需的。
QM9700 InfiniBand 交换机具有 64 个网络检测和响应 (NDR) 端口。因此,此集群中PowerEdge XE9680服务器的24个节点将填满InfiniBand模块中QM9700上的端口。在胖树网络拓扑中添加额外的InfiniBand模块。
当您向集群添加其它PowerEdgeXE9680服务器节点时,请适当扩展PowerScale交换机以满足输入/输出性能要求。
检查点是大型模型训练中使用的标准技术。检查点的大小取决于模型的大小和维度以及训练中使用的管道并行度。
四个DellPowerScale F600 Prime存储平台通过线性扩展提供8 GBS写入和40 GBS读取吞吐量性能。
总结
本部分包含的信息是对用于推理、自定义和训练大型语言生成 AI 模型的建议配置的特征和关键设计注意事项的高级概述。如 如前所述,有关每个使用案例的更多详细信息将在本白皮书的一系列设计指南中针对这些Dell验证的AI设计。
结论 - 生成式 AI 优势
本文档探讨了生成式 AI 的概念、优势、用例和挑战,并介绍了由Dell Technologies和 NVIDIA 设计的可扩展模块化解决方案架构。
Project Helix 是Dell Technologies和 NVIDIA 之间的独特合作,旨在为企业实现生成式 AI 的承诺。我们共同提供基于Dell基础设施和软件的全栈解决方案,并使用 NVIDIA 屡获殊荣的软件堆栈和加速器技术。将 NVIDIA 的深厚知识和创造力与Dell Technologies的全球客户知识和技术专长相结合,Project Helix:
提供基于Dell最佳基础设施和软件构建的全栈生成式 AI 解决方案,并结合最新的 NVIDIA 加速器、AI 软件和 AI 专业知识。
使企业能够在本地使用专门构建的生成式 AI 来解决特定的业务挑战。
协助企业完成整个生成式 AI 生命周期,从基础设施配置、大型模型开发和训练、预训练模型微调、多站点模型部署和大型模型推理。
确保敏感和专有公司数据的信任、安全和隐私,并遵守政府法规。
借助 Project Helix,Dell Technologies和 NVIDIA 使组织能够自动化复杂的流程,改善客户互动,并通过更好的机器智能解锁新的可能性。我们共同引领企业AI领域的下一波创新浪潮。